机器学习和临床研究社区利用现实世界数据(RWD)的方法,包括电子健康记录中捕获的数据(EHR)截然不同。虽然临床研究人员谨慎使用RWD进行临床研究,但用于医疗团队的ML会消费公共数据集,并以最少的审查来开发新算法。这项研究通过开发和验证ML-DQA来弥合这一差距,ML-DQA是基于RWD最佳实践的数据质量保证框架。 ML-DQA框架适用于两个地理位置的五个ML项目,分别是不同的医疗状况和不同的人群。在这五个项目中,共收集了247,536名患者的RWD,共有2,999项质量检查和24份质量报告。出现了五种可推广的实践:所有项目都使用类似的方法来分组冗余数据元素表示;所有项目都使用自动实用程序来构建诊断和药物数据元素;所有项目都使用了一个共同的基于规则的转换库;所有项目都使用统一的方法将数据质量检查分配给数据元素;所有项目都使用类似的临床裁决方法。包括临床医生,数据科学家和受训者在内的平均有5.8个人参与每个项目实施ML-DQA,每个项目平均进行了23.4个数据元素。这项研究证明了ML-DQA在医疗项目中的重要性作用,并为团队提供了开展这些基本活动的框架。
translated by 谷歌翻译
通过一系列联邦举措和命令,美国政府一直在努力确保美国在AI中的领导。这些广泛的战略文件影响了美国空军美国部(DAF)等组织。DAF-MIT AI加速器是DAF和MIT之间的一项计划,以弥合AI研究人员与DAF任务要求之间的差距。DAF-MIT AI加速器支持的几个项目正在开发公共挑战问题,这些问题解决了许多联邦AI研究的重点。这些挑战是通过公开可用的大型AI-Ready数据集,激励开源解决方案,并为可以激发进一步研究的双重使用技术创建需求信号,来针对优先事项。在本文中,我们描述了正在开发的这些公共挑战以及它们的应用如何促进科学进步。
translated by 谷歌翻译
由于几个因素之间的微妙权衡:参与者的隐私,生态有效性,数据保真度和后勤开销,记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题,在社区精神上为社区的“数据集”之后,我们提出了会议生活实验室(Conflab):一个新的概念,用于多模式多模式数据收集,野生野外社交对话。对于此处描述的Conflab的首次实例化,我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者,捕捉了地位,熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度,同时保留隐私敏感性:从非侵入性的架空视图中获得8个视频(1920x1080,60 fps),并具有定制的可穿戴传感器,并带有车载记录(完整9) - 轴IMU),具有隐私性的低频音频(1250 Hz)和基于蓝牙的接近度。此外,我们开发了用于采集时分布式硬件同步的自定义解决方案,并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务:从高架摄像头视图,基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。
translated by 谷歌翻译
In representative democracy, the electorate is often partitioned into districts with each district electing a representative. Unfortunately, these systems have proven vulnerable to the practice of partisan gerrymandering. As a result, methods for detecting gerrymandered maps were introduced and have led to significant success. However, the question of how to draw district maps in a principled manner remains open with most of the existing literature focusing on optimizing certain properties such as geographical compactness or partisan competitiveness. In this work, we take an alternative approach which seeks to find the most "typical" redistricting map. More precisely, we introduce a family of well-motivated distance measures over redistricting maps. Then, by generating a large collection of maps using sampling techniques, we select the map which minimizes the sum of the distances from the collection, i.e., the most "central" map. We produce scalable, linear-time algorithms and derive sample complexity guarantees. We show that a by-product of our approach is the ability to detect gerrymandered maps as they are found to be outlier maps in terms of distance.
translated by 谷歌翻译
大型预先接受的变压器的语言模型,如BERT大大改变了自然语言处理(NLP)字段。我们展示了对最近的工作的调查,这些工作使用这些大型语言模型通过预先训练,提示或文本生成方法来解决NLP任务。我们还提出了使用预先训练的语言模型来生成培训增强或其他目的的数据的方法。我们在讨论有关未来研究的局限性和建议方向的结论。
translated by 谷歌翻译
在社交谈话中的人类行为预测中的默认范式涉及选择利息的特定未来语义事件(例如,演讲者转变变化,群体离开),然后识别他们与低级非语言提示的关系。如此自上而下的方法中的常见障碍是对监督学习的事件标记数据的可用性有限,源于此类事件的不频率。为了解决这一挑战,我们建议将预测投入到一个小说自下而上的自我监督问题中,以利用更大的低级行为线索。我们正规化社会提示预测(SCF)的任务,并表征所涉及的具体建模挑战。为了解决这些社会科学文献的关键观察,并提出社会过程(SP)模型 - 社会意识到序列序列模型,该序列模型将每个对话组视为元学习任务,以解释特定于组的动态。我们的SP模型学习每位参与者未来提示的活动不可知论者,同时捕捉全球不确定性,通过联合推理本集团所有成员的未来。对于SCF的这种新任务,在实际行为数据上提高了非元学习模型的实证性能验证了我们的元学习方法。此外,通过具有类似假设的Meta学习模型的消融和比较验证了我们对此任务的具体建模选择。
translated by 谷歌翻译